生成AI的最新进展具有显着的图像和视频编辑,尤其是在文本及时控制的背景下。最新的方法主要依赖于扩散模型来完成这些任务。但是,基于扩散的方法的计算需求是实质的,通常需要大规模配对数据集进行培训,因此挑战了实际应用程序中的部署。为了解决这些问题,本文将基于文本的视频编辑任务分为两个阶段。首先,我们利用预先训练的文本到图像扩散模型以零击的方式同时编辑一些密钥帧。第二,我们引入了一个名为MaskInt的高效模型,该模型是建立在非自动性掩蔽的生成变压器上的,并使用中等框架的结构指导专门研究了编辑的密钥帧之间的框架。实验性恢复表明,我们的面具具有基于扩散的方法的可比性,而显着改善了推理时间。这项研究为基于文本的视频编辑提供了实用的解决方案,并显示了该域中非自动掩盖的生成变压器的潜力。
![arxiv:2312.12468v2 [cs.cv] 2024年4月2日PDF文件第1页](/bimg/5/581a108c8a8874adb9f994547ef67e9ccfe2d516.webp)
![arxiv:2312.12468v2 [cs.cv] 2024年4月2日PDF文件第2页](/bimg/9/9fb7c734981e6cc83f0d093df5e16f33a9acfb59.webp)
![arxiv:2312.12468v2 [cs.cv] 2024年4月2日PDF文件第3页](/bimg/8/82fdc86db08e254d042a434cedaa5f62a2ec3abb.webp)
![arxiv:2312.12468v2 [cs.cv] 2024年4月2日PDF文件第4页](/bimg/5/5c6294e727d415980c1adf4709716643596fd747.webp)
![arxiv:2312.12468v2 [cs.cv] 2024年4月2日PDF文件第5页](/bimg/c/cec7093f16e942b6c6793ea491a08a4299e3c472.webp)
